今天我們要介紹的是決策樹,所謂的決策樹簡單來說就是將一項東西去做分類,比如說下雨的機率,而會下雨可能是因為大氣中的濕度大氣壓力,那將資料丟進去分析會不會下雨時就會將其分類,濕度大於多少會下雨小於多少不會下雨,大氣壓力多少會下雨多少不會下雨。
我們將用iris的資料集去做簡單的分析。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
首先我們先將需要用到的套件載入。
pip3 install 套件名稱
如果有缺少的套件則可以在終端機上下載缺少的套件。
data = datasets.load_iris()
x = pd.DataFrame(data['data'],columns = data["feature_names"])
print(x)
y = pd.DataFrame(data["target"],columns = ["tar"])
print(y)
data_iris = pd.concat([x,y], axis = 1)
print(data_iris)
data_iris = data_iris[["sepal length (cm)","petal length (cm)","tar"]]
print(data_iris)
data_iris = data_iris[data_iris['tar'].isin([0,1])]
print(data_iris)
接下來我們將iris資料集載入,並將資料合併。
X_train, X_test, Y_train, Y_test = train_test_split(data_iris[["sepal length (cm)","petal length (cm)"]],data_iris["tar"], random_state=0)
接下來我們將資料分成測試與訓練集。
tre = DecisionTreeClassifier(max_depth = 2, random_state = 0 )
tre.fit(X_train , Y_train)
接下來我們訓練決策樹的模型。
tree.plot_tree(tre)
接下來我們將決策樹視覺化。
以上就是簡易的決策樹做法,明天我們將介紹隨機森林。